归约

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

近期，Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》，指出问题的核心在于缺乏批次不变性(batch invariance)。

研究主题是“Defeating Nondeterminism in LLM Inference”，克服大语言模型推理中的不确定性。